파이썬으로 풀어보는 회귀분석

상관계수 추론

[ 보스턴 517번가 주택가격 예측 예제 풀이 ]

보스턴 주택 가격과 (학생 - 교사의 비율) 관계 추론

( 산점도로 알 수 있는 점 )

( 상관 계수 )

: 교사 일인당 학생수가 많을수록 주택 가격은 떨어진다.

[ 범주형 변수의 수준별 상관계수 행렬 구해보기 ]

( 상관계수 해석 )

[ 3개 이상의 다변량 변수 상관계수 행렬 구해보기 ]

( pairplot = 산점도 행렬을 사용하는 이유 )

산점도 행렬은 다변량 변수의 상관관계와 분석흐름을 파악하는데 필수로 거쳐야할 작업

주택가격과 상관관계가 유의한지는 유의성 검정을 실시하거나 회귀분석을 통해 주택 가격에 유의한 영향을 주는 변수를 검정해보아야 한다.

회귀분석

단순 회귀 모형

모형

가정

*오차항 가정이 필요한 이유

추정

[ 개념 ]

[ 최소자승법(OLS) ]

image.png

이 이상은 너무나 많은 수식들로...노트북화 실패했습니다...

사례분석

* 해설

선형성 진단

*그러나 변수들간의 관계가 복잡하게 얽힌 경우 통합적 선형성 검정분석 방법이 필요하다.

영향치(influential) 및 이상치(outlier) 진단

최종 모형 추정

- 이상치를 제외한 df2 주택가격 = 59.6 - 2.06*학생-교사비율, 결정계수는 25.8%에서 34.3%로 높아졌다. 다시 이상치가 발생할 것이고 이를 제외하면 결정계수는 계속 증가한다.

- 학생-교사비율이 낮을수록 주택가격은 상승한다. 학생교사 비율이 1단위 낮아지면 그 타운 주택가격은 2.06만불 올라간다.

다중선형회귀 분석 해보기

눈여겨 볼 점

* Adj.R-squred는 0.734, 모형의 p-value는 0.05 이하로 통계적으로 유의미 함. 그러나 AGE 변수에 대한 P-value가 0.954로 유의미하지 않음 = AGE는 Target에 영향을 주는 변수라고 볼 수 없음. 
* AGE를 제외하고 재수행
- Adj.R-squred는 0.735, 모형의 p-value는 0.05 이하로 모든 변수가 p-value 0.05 이하로 유의미한 결과를 보여줌. 
- 변수들 중 질소산화물농도(NOX)가 1 증가 할 때 주택가격의 값이 17이 감소하고 RM은 3.7, CHAS는 2.7 정도 집값 상승에 영향을 준다고 판단 할 수 있음. 

회귀분석 파트 요약

머신러닝에서의 선형 회귀 분석